agentic workflow

Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance

reflection (內省)

大規模言語 model (LLM)は自らの生成內容を分析し、改善策を考案する機能を備へていゐます。

Agentic Design Patterns Part 2: Reflection

［2303.17651］ Self-Refine: Iterative Refinement with Self-Feedback

人閒と同樣に、大規模言語 model (LLM) (LLM) も初囘の出力で常に最適な結果を生成するわけではない。人閒が文章を推敲する process に着想を得て、本硏究では Self-Refine といふ手法を提案する。これは反復的な feedback と改良を通じて、大規模言語 model (LLM)による初期出力の品質を向上させる approach である。基本的な考へ方は、最初に大規模言語 model (LLM)を用ゐて初期出力を生成した後、その出力に對して同じ大規模言語 model (LLM)が feedback を提供し、それを基に自己改良を反復的に行ふことである。Self-Refine は敎師あり學習 data や追加の訓練、強化學習 (RL)を必要とせず、單一の大規模言語 model (LLM)を出力生成器、改良器、および feedback 提供者として利用する點が特徵である。本手法を、對話應答生成から數學的推論まで 7 種類の多樣な task において評價した。評價には最先端の大規模言語 model (LLM) model (GPT-3.5、ChatGPT、GPT-4) を使用した。評價對象の全 task において、Self-Refine を用ゐて生成した出力は、從來の單一 step 生成で同じ大規模言語 model (LLM)を使用した場合と比較して、人閒による評價と自動評價指標の雙方で好まれる結果となった。task 性能の平均改善率は約 20% に達し、本手法の有效性を實證してゐる。本硏究の成果は、GPT-4 のやうな最先端大規模言語 model (LLM)であっても、本硏究で提案する simple で standalone な手法を用ゐることで、test 時にさらなる性能向上が可能であることを示してゐる。

［2303.11366］ Reflexion: Language Agents with Verbal Reinforcement Learning

大規模言語 model (LLM) (LLM) は、game や compiler、API といった外部環境との interaction において、目標指向型 agent としての活用が急速に進んでゐる。しかし、これらの言語 agent が試行錯誤を通じて迅速かつ效率的に學習することは、從來の強化學習 (RL)手法が膨大な訓練サンプルと高價な model fine tuning を必要とするため、依然として大きな課題となってゐる。本硏究では、言語 agent を強化する新たな framework「Reflexion」を提案する。從來の重み更新による手法とは異なり、Reflexion は言語的 feedback を通じて agent を強化する。具體的には、Reflexion agent は task feedback 信號について言語的に內省を行ひ、その內省內容を episode 記憶 buffer に保持することで、後續の試行においてより適切な意思決定を促す仕組みとなってゐる。Reflexion は樣々な種類の feedback 信號 (scalar 値または自由記述形式) や情報源 (外部環境または內部で simulate されたもの) に柔軟に對應可能であり、多樣な task (逐次的意思決定、coding、言語推論) において baseline agent を大幅に上囘る性能向上を達成した。例へば、coding benchmark である HumanEval においては、91% といふ高い pass@1 精度を達成し、從來の最先端 model である GPT-4 の 80% といふ性能を凌駕してゐる。さらに、異なる feedback 信號、 feedback 統合手法、および agent type を用ゐた ablation 硏究と分析を行ひ、それらが性能に及ぼす影響について詳細な知見を得た。

［2305.11738］ CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

大規模言語 model (LLM) (LLM) の最近の發展は目覺ましいものがある。しかしながら、これらの model には時折、事實を捏造する hallucination、缺陷のある code を生成する問題、あるいは攻擊的・有害な contents を生成するといった一貫性の缺如や問題行動が認められる。これらの model とは異なり、人閒は基本的に外部 tool を活用して初期生成內容を相互檢證・改善してゐる。例へば、事實確認には檢索 engine を、debug には code interpreter を使用するといった具合である。この觀察結果に着想を得て、我々は「CRITIC」と呼ばれる framework を提案する。CRITIC は、本質的に「blackbox」である大規模言語 model (LLM)が、人閒と tool の相互作用と同樣の手法で、自らの出力を檢證し段階的に修正することを可能にする。より具體的には、初期出力を起點として、CRITIC は適切な tool と相互作用しながら text の特定側面を評價し、その檢證 process で得られた feedback に基づいて出力を修正する。自由形式の質問應答、數學的 program 合成、有害性低減などを含む包括的な評價實験により、CRITIC が一貫して大規模言語 model (LLM)の性能向上に寄與することを實證した。さらに、本硏究は、大規模言語 model (LLM)の繼續的な自己改善を促進する上で、外部 feedback が極めて重要であることを明らかにしてゐる。

tool use (道具の活用)

大規模言語 model (LLM)は Web 檢索、code 實行、その他の各種機能といった tool を利用し、情報蒐集や作業實行、data 處理などを支援します。

Agentic Design Patterns Part 3: Tool Use

［2305.15334］ Gorilla: Large Language Model Connected with Massive APIs

大規模言語 model (LLM) (LLM) は近年、目覺ましい進化を遂げてをり、數學的推論や program 合成をはじめとする多樣な task において優れた性能を發揮してゐる。しかしながら、API call を通じた外部 tool の效果的な活用といふ觀點では、その潛在能力が充分に發揮されてゐるとは言い難い。これは、GPT-4 をはじめとする現在の最先端大規模言語 model (LLM)にとっても困難な課題であり、主に以下の 2 つの要因に起因してゐる : 第一に、正確な入力引數を生成できない點、第二に、API call の誤った使用方法を生成してしまふ「hallucination」現象が發生しやすい點である。本硏究では、fine tuning を施した LLaMA based の model「Gorilla」を提案する。Gorilla は GPT-4 を凌駕する性能で API call の生成 task において優れた結果を示してゐる。文書檢索 system と連携させることで、Gorilla は test 時の文書內容變更に柔軟に對應できる能力を發揮し、user による柔軟な更新や version 變更にも對應可能となる。さらに、大規模言語 model (LLM)に直接 prompt を與へる際に頻發する hallucination 問題を大幅に輕減する效果も確認されてゐる。本 model の評價指標として、HuggingFace、TorchHub、TensorHub の各 API を網羅した包括的な data set「APIBench」を新たに構築した。檢索 system とGorillaの統合が成功したことは、大規模言語 model (LLM)がより正確に外部 tool を活用できるやうになり、頻繁に更新される document にも對應可能となることで、結果としてその出力の信賴性と適用可能性が向上する可能性を示してゐる。Gorilla の code、model、data、および demo は以下の https URL から入手可能である：https://gorilla.cs.berkeley.edu/

Gorilla

［2303.11381］ MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

本論文では、ChatGPT と視覺分野の專門家集団を統合した system paradigm「MM-REACT」を提案する。本 system は、multimodal 推論と行動實行を實現することを目的としてゐる。本硏究では、解決すべき興味深い高度な視覺 task の包括的な list を定義・檢討する。これらの task は、既存の視覺認識 model や視覺言語 model の能力を超える可能性がある。このやうな高度な視覺知能を實現するために、MM-REACT は text 記述、text 化空閒座標、および畫像や動畫といった高密度視覺信號に對應する整列濟み file 名を表現する text prompt 設計を導入した。MM-REACT の prompt 設計により、言語 model は multimodal 情報を受容・關聯附け・處理することが可能となり、これにより ChatGPT と各種視覺專門家の相補的な連携が促進される。zero-shot 實験の結果、MM-REACT は指定された高度な視覺機能の實現において有效性を示すとともに、高度な視覺理解を必要とする多樣な scenario への廣範な適用可能性を實證した。さらに、MM-REACT の system paradigm を、言語 model を共同 fine tuning によって multimodal scenario に適應させる代替 approach と比較考察する。code、demo、動畫、および可視化結果については、以下の https URL で公開してゐる。https://multimodal-react.github.io/

MM-ReAct: Prompting ChatGPT for Multimodal Reasoning and Action

［2401.17464］ Efficient Tool Use with Chain-of-Abstraction Reasoning

人閒の期待に沿った忠實な推論を實現するためには、大規模言語 model (LLM) (LLM) が自らの推論 process を現實世界の知識 (Web 上の事實、數學的法則、物理的法則など) に根附かせる必要がある。tool は大規模言語 model (LLM)がこの外部知識に access する手段を提供するが、複數段階の推論問題において大規模言語 model (LLM) agent (例へば Toolformer) が適切に tool を呼び出すための fine tuning には依然として課題が残されてゐる。特に、相互に關聯する複數の tool 呼び出しが必要な場合、全體的かつ效率的な tool 使用計畫が求められる。

本硏究では、大規模言語 model (LLM)が多段階推論において tool をより效果的に活用するための新たな手法を提案する。本手法「抽象化連鎖 (Chain-of-Abstraction : CoA)」では、大規模言語 model (LLM)にまず抽象的な placeholder を含む推論連鎖を解讀させた後、domain 固有の tool を呼び出して各推論連鎖を具體化し、具體的な知識で埋め合わせるやう學習させる。この抽象化された連鎖を用ゐた計畫立案により、大規模言語 model (LLM)はより汎用的な推論戰略を習得できるやうになる。この戰略は、異なる推論問題に關聯する domain 知識 (例へば數學的結果など) の變化に對しても頑健である。さらに、大規模言語 model (LLM)が外部 tool の解讀と呼び出しを竝列處理できるやうにすることで、tool からの應答待ちに伴ふ推論遲延を囘避できる。數學的推論および Wiki QA の兩領域において、本手法は從來の思考の連鎖 (CoT) based および tool 擴張 baseline を、分布內 test set と分布外 test set の兩方で一貫して上囘る性能を示し、平均約 6% の絶對的 QA 精度向上を達成した。本手法で訓練した大規模言語 model (LLM) agent は、baseline の tool 擴張大規模言語 model (LLM)と比較して平均約 1.4 倍の高速な推論速度も實現してゐる。

planning (計畫立案)

大規模言語 model (LLM)は目標達成に向けた多段階の計畫を立案し、實行します (例へば essay の outline 作成→online 調査實施→草稿執筆といった一聯の process)。

Agentic Design Patterns Part 4: Planning

［2201.11903］ Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

本硏究では、思考の連鎖 (CoT)――すなはち中閒的な推論 step の連續――を生成することが、大規模言語 model (LLM)の複雜な推論能力を大幅に向上させる mechanism を解明する。特に、思考の連鎖 (CoT) prompting と呼ばれる簡便な手法を通じて、充分な規模の言語 model においてこのやうな推論能力が自然に發現する過程を明らかにする。この手法では、prompt 內に少數の思考の連鎖 (CoT)事例を模範例として提示する。3 種類の大規模言語 model (LLM)を用ゐた實験により、思考の連鎖 (CoT) prompting が算術問題、常識推論、記號論理推論といった多樣な task において性能向上をもたらすことが確認された。得られた實證結果は極めて顯著である。例へば、parameter 數 5400 億の言語 model に對し、わずか 8 つの思考の連鎖 (CoT)事例を prompt として與へるだけで、數學文章題 benchmark である GSM8K において最先端の精度を達成し、檢證器を備へた fine tuning 濟み GPT-3 をも凌駕する性能を示した。

［2303.17580］ HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

異なる領域と modality にまたがる複雜な AI task の解決は、人工汎用知能の實現に向けた重要な一步である。現在、さまざまな領域や modality に對應した多數の AI model が存在するものの、それらは自律的に複雜な AI task を處理することはできない。大規模言語 model (LLM) (LLM) が言語理解・生成・對話・推論において卓越した能力を示してゐることを踏まえ、我々は大規模言語 model (LLM)を既存の AI model を統括する controller として機能させることで、複雜な AI task の解決を可能にする approach を提案する。この考へ方に基づき、我々は HuggingGPT といふ大規模言語 model (LLM)驅動型 agent を提案する。HuggingGPT は大規模言語 model (LLM) (例へば ChatGPT) を活用し、機械學習 community (Hugging Faceなど) に存在する多樣な AI model を連携させることで、AI task の解決を實現する。具體的には、user からの要求を受信した際に ChatGPT を用ゐて task 計畫を實施し、Hugging Face 上で利用可能な各 model の機能說明に基づいて適切な model を選擇し、選擇した AI model を用ゐて各 subtask を實行した後、實行結果に基づいて應答を要約する。ChatGPT の強力な言語處理能力と Hugging Face が提供する豊富な AI model resource を活用することで、HuggingGPT は多樣な modality と領域にまたがる廣範な高度な AI task に對處可能であり、言語處理・視覺認識・音聲處理をはじめとする樣々な困難な task において顯著な成果を達成してゐる。この approach は、人工汎用知能の實現に向けた新たな道筋を示すものである。

Hugging Face – The AI community building the future.

［2402.02716］ Understanding the planning of LLM agents: A survey

大規模言語 model (LLM) (LLM) が顯著な知能を示すやうになったことを受け、自律 agent の計畫 module として大規模言語 model (LLM)を活用する硏究が注目を集めてゐる。本調査硏究は、大規模言語 model (LLM) based の agent による計畫立案に關する初の體系的な展望を提供するものであり、特に計畫能力の向上を目的とした最新の硏究成果を網羅的に整理した。大規模言語 model (LLM)-agent 計畫に關する既存硏究を、「task 分解」「計畫選擇」「外部 module 連携」「reflection と記憶」の 4 つの主要な category に分類する體系的な分類體系を提示する。各硏究方向について詳細な分析を行ふとともに、本硏究分野が今後取り組むべき課題についても考察する。

multi-agent collaboration (複 agent 協調)

複數の AI agent が連携し、task を分擔しながら idea の檢討・議論を行ふことで、單一 agent では得られないより優れた解決策を導き出します。

Agentic Design Patterns Part 5, Multi-Agent Collaboration

［2307.07924］ ChatDev: Communicative Agents for Software Development

software 開發は、多樣な skill set を有する複數の member による協調作業を必要とする複雜な task である。これまで多くの硏究が、waterfall model における設計、coding、test といった特定の工程を改善するために深層學習技術を活用してきた。しかしながら、各工程で使用される深層學習 model はそれぞれ獨自の設計を必要とするため、工程閒で技術的な整合性が缺如し、結果として開發 process が分斷され非效率になるといふ問題が生じてゐる。本論文では、大規模言語 model (LLM) (LLM) によって驅動される專門 agent が、chat 機能を介して傳達すべき內容 (chat chain による指示) と傳達方法 (communicative dehallucination による指導) に從って動作する、chat 驅動型 software 開發 framework「ChatDev」を提案する。これらの agent は、統一された言語 based の communication を通じて設計、coding、test の各工程に積極的に關與し、多段階の對話から得られた解決策を提供する。我々の檢證によれば、これらの agent が自然言語を活用することは system 設計において有利であり、programming 言語による communication は debug 作業において有效であることが明らかとなった。本 paradigm は、言語的 communication が multi-agent 閒の協調を促進することを示してをり、大規模言語 model (LLM) agent による自律的な task 解決を實現するための統一的な架け橋としての言語の役割を確立するものである。本硏究で使用した code と data set は、以下の https URL から入手可能である。https://github.com/OpenBMB/ChatDev

OpenBMB/ChatDev: Create Customized Software using Natural Language Idea (through LLM-powered Multi-Agent Collaboration)

［2308.08155］ AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

AutoGen は open source の framework であり、開發者が複數の agent を連携させることで、相互に對話しながら task を遂行する大規模言語 model (LLM) application を構築することを可能にします。AutoGen の agent は customize 可能で對話機能を備へてをり、大規模言語 model (LLM)、人閒からの入力、各種 tool を組み合はせた多樣な mode で動作します。開發者は AutoGen を活用することで、agent 閒の interaction 動作を柔軟に定義することも可能です。自然言語と computer code の兩方を用ゐて、各 application に適した柔軟な会話 pattern を programming できます。AutoGen は、さまざまな複雜度や大規模言語 model (LLM)の能力 level に應じた多樣な application を構築するための汎用的な infrastructure として機能します。實證硏究によれば、この framework は數學、coding、質問應答、operations reserch、online 意思決定、entertainment など、多岐にわたる分野の實例 application においてその有效性が實證されてゐます。

［2308.00352］ MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

大規模言語 model (LLM) (LLM) を基盤とした agent 群による自動問題解決技術において、顯著な進展が見られる。既存の大規模言語 model (LLM) based の multi-agent system は既に單純な對話 task の解決が可能である。しかしながら、より複雜な task に對する解決策の生成は、大規模言語 model (LLM)を單純に連鎖させることで生じる論理矛盾や連鎖的な幻覺現象 (hallucination) によって複雜化してゐる。本硏究では、大規模言語 model (LLM) based の multi-agent 協調に效率的な人閒の workflow を組み込んだ革新的な meta programming framework「MetaGPT」を提案する。MetaGPT は、標準化された運用手順 (SOP) を prompt sequence として符號化することで、workflow の效率化を實現してゐる。これにより、人閒 level の domain 專門知識を有する agent が中閒結果を檢證し、error を低減することが可能となる。MetaGPT は組み立て line 方式を採用し、多樣な役割を各 agent に割り當てることで、複雜な task を效率的に細分化し、多數の agent が協働して subtask を處理する體制を構築してゐる。共同 software engineering の benchmark test において、MetaGPT は從來の chat-base multi-agent system を上囘る一貫性のある解決策を生成することが確認された。本 project の詳細は以下 URL で參照可能である：https://github.com/FoundationAgents/MetaGPT

FoundationAgents/MetaGPT: 🌟 The Multi-Agent Framework: First AI Software Company, Towards Natural Language Programming

eveluation

rule-based evaluation

human in the loop

ヒューマンインザループ - Wikipedia

human in the loop

human on the loop

human out of the loop

Human-in-the-Loop機械学習: 人間参加型AIのための能動学習とアノテーション | Robert (Munro) Monarch, 上田隼也, 角野為耶, 伊藤寛祥 |本 | 通販 | Amazon

Humanistic intelligence - Wikipedia

人間のフィードバックによる強化学習 - Wikipedia

強化學習 (RL)

LLM as a judge

［2411.15594］ A Survey on LLM-as-a-Judge

正確かつ一貫性のある評價は、多岐にわたる分野における意思決定 process において極めて重要である。しかしながら、評價には本質的な主觀性、變動性、規模の問題が伴ふため、依然として困難な課題となってゐる。大規模言語 model (LLM) (LLM) は多樣な領域で顯著な成功を收めてをり、これに伴ひ「大規模言語 model (LLM)を評價者として活用する手法」(LLM-as-a-Judge) が登場してゐる。大規模言語 model (LLM)は多樣な data 形式を處理可能であり、scalable で cost 效率に優れ、かつ一貫した評價を提供できる特性を有するため、從來の專門家による評價手法に代はる有力な選擇肢として注目されてゐる。ただし、大規模言語 model (LLM)を評價者として用ゐる system の信賴性確保は依然として重要な課題であり、愼重な設計と標準化が求められる。本論文では、LLM-as-a-Judge に關する包括的な調査硏究を行ひ、中核的な問ひである「いかにして信賴性の高い LLM-as-a-Judge system を構築可能か?」に取り組む。具體的には、評價の一貫性向上、bias の輕減、多樣な評價 scenario への適應など、信賴性を高めるための戰略について考察する。さらに、LLM-as-a-Judge system の信賴性評價手法についても提案し、本目的のために新たに設計した benchmark data set を用ゐてその有效性を實證する。LLM-as-a-Judge system の開發と實社会への展開をさらに推進するため、本論文では實用的な應用事例、課題、および今後の硏究方向性についても議論する。本調査硏究は、この急速に發展を續ける分野における硏究者および實務者にとっての基礎的な參照資料となるものである。

LLM-as-a-judge: a complete guide to using LLMs for evaluations

Amazon Bedrock の新しい RAG 評価機能と LLM-as-a-Judge 機能 | Amazon Web Services ブログ